查看原文
其他

基础篇:转录组测序介绍 | 转录调控专题

运营部-LH 联川生物 2024-03-27




转录组测序第一步


转录(Transcription)是指以DNA的一条链为模板,按照碱基互补配对原则,合成RNA的过程。转录组(Transcriptome)狭义上指某一生理条件下细胞内所有mRNA的集合;广义上是指某一生理条件下细胞内所有转录产物的集合,包括mRNA和非编码RNA(non-coding RNA,ncRNA)。转录组测序(RNA-seq)则是指利用二代高通量测序技术(NGS)检测特定细胞、组织、器官或某一状态下的RNA序列信息和表达(转录水平)信息的技术。

一般情况下研究者关注的是细胞总RNA(Total RNA)中mRNA的转录水平,因为其可以作为翻译模板指导生命活动的主要承担者蛋白质(protein)的翻译。但是mRNA只占细胞Total RNA的2%-5%,其余的绝大部分RNA(超过80%)是核糖体RNA(rRNA)。如果不对mRNA进行富集而直接对Total RNA进行建库测序,会浪费大量的测序资源,因此转录组测序的第一步在于如何富集我们关注的mRNA。



mRNA富集思路


一般富集有两种思路:第一种是阳选,即直接筛选我们关注的mRNA,阳选的关键问题在于筛选对象是否具有共同的特征,利用共同的序列特征可以将目标群体从Total RNA中筛选出来。第二种是阴选,即去除我们不关注的、但是占比最大的核糖体RNA。有点类似于我们做选择题,可以直接计算出结果,也可以使用排除法缩小范围。

通常说的普通转录组测序(RNA-seq)是指基于mRNA(通常成熟的mRNA在5’有帽子结构,3’有polyA尾巴)具有polyA尾的序列特征、利用阳选的方式富集mRNA、随后进行建库测序的技术,即对用多聚胸腺嘧啶(oligo-dT)进行亲和纯化的RNA聚合酶II转录的成熟mRNA进行高通量测序。

需要指出的是,除mRNA外,部分长链非编码RNA(lncRNA)也具有polyA尾结构,因而可以被oligo-dT亲和富集,此外某些序列中具有多个连续A碱基的转录本也可能被富集。因此普通转录组测序(RNA-seq)可以检测到mRNA、部分具有polyA尾的lncRNA和序列中具有多个连续A碱基的转录本(比如MALAT1)。



一、转录组测序建库流程


转录组测序建库流程图如下,文库(library)构建主要有7大步骤,简述如下:


1. 富集mRNA。通过耦联有oligo-dT的磁珠(Beads)从Total RNA中捕获mRNA;

2. 将捕获的mRNA打断为短片段(300-600nt);

3. 一链合成。使用六碱基随机引物进行逆转录扩增第一链cDNA;

4. 二链合成。在二链合成体系Buffer中包含A、U、G、C,使用U替代T,使得二链布满U位点;

5. 末端修复。使用末端修复酶系统(DNA平末端化)得到平末端的双链DNA;

6. 末端加A。末端加A酶可以有效的将dAMP掺入平末端DNA片段的3’端,使得3’端均带有A,方便与后续的Y型接头进行互补配对;

7. 加接头。使用A-T配对加上Y型接头,Y型接头3’端带T。

8. 二链降解。UDG (Uracil-DNA Glycosylase,尿嘧啶-DNA糖基化酶)可催化水解含有dU的DNA单链或双链的尿嘧啶碱基和糖磷酸骨架的N-糖苷键,释放游离尿嘧啶,由此产生的无碱基位点很容易被水解断裂。使用UDG酶可以降解布满U的二链,从而仅保留一链信息,是链特异性建库的关键一步;

9. 使用通用引物进行PCR扩增,最终得到转录组文库,定量后可以进行后续的上机测序。

当接触到更多类型的RNA组学会发现,绝大多数的建库方法仅在第一步富集或捕获RNA上有明显区别,即富集对象或富集方法上的区别,而后续的步骤基本上是一致的。我们可以基于自身的研究目的或兴趣选择不同的富集对象与富集方法,从而选择不同的RNA组学。



二、转录组测序分析流程


RNA-seq分析的最核心结果是基因的表达信息和差异信息(往往是我们最关注的),其基本分析流程如下:




1. 下机数据质控。目的是去除测序过程中产生的低质量序列,避免对后续基因定量产生影响。

2. 参考基因组比对。通过比对参考基因组获取reads的来源信息(来源于哪个基因座的转录),用于后续转录本重构、可变剪切分析、SNP(Single Nucleotide Polymorphisms)/ Indel(insertion-deletion)分析等;如果没有参考基因组或可用参考基因组,则使用从头组装转录本,获得Unigene序列信息和表达信息(无参转录组)。

3. 基于转录本重构结果进行基因定量和转录本定量,获得样本的基因表达信息,后续可以用于样本相关性分析、GSEA(基因集富集分析)分析等。

4. 基于定量结果进行差异分析,获得不同差异比较组的差异基因。

5. 差异基因富集分析,分析差异基因可能涉及的生物学途径。

RNA-seq分析的基础结果是基因的定量,先获得不同样本的基因表达信息,继而通过差异分析获得不同处理或条件下的差异基因信息,从而为表型现象的机制探索或基因的功能研究提供参考方向。另外基于实验设计、样本类型与数量等因素,RNA-seq有很多延伸的分析策略或分析方法(相关性分析、表达模式分析、WGCNA等),为数据的深入挖掘提供支持,这一点在后续章节会予以介绍。



三、为什么都在强调链特异性建库,有什么优势?


联川生物在转录组建库时采用链特异性建库(fr-firstrand)方式,链特异性转录组测序(strand-specific RNA-seq / ssRNA-seq)可以保留转录组测序时转录本的方向信息,即可以确定转录本是来源于参考基因组上的正链还是负链。链特异性建库的文库构建方法有多种,其中用的最普遍的是dUTP方法。相对于传统转录组测序而言,链特异性文库在基因结构的确定、非编码转录本的鉴定、原核生物的操纵子鉴定以及转录本的基本定量方面,都具有绝佳的优势。

链特异性建库的关键就在于合成cDNA的第二链时,由dUTP代替dTTP,然后用UDG处理,第二链就会降解,而第一链保留下来, 继而测序。因此,测序得到的转录本序列信息,只是来源于第一链的。

链特异性建库有如下优势:


1. 定量更准确

由于链特异性测序可以区分转录本的来源,因此在计算某些转录本的表达量时,可以排除来自其互补链的转录本。

2. 可变剪切检测更准确

因为链特异性文库可以排除反义链上antisense转录本的影响,可变剪接事件的检测假阳性更低。

3. Non-coding transcript的检测

链特异性文库可以显著提高non-coding transcript的检出效率。对于antisense的non-coding转录本,如果用普通文库,是无法区分的;如果是基因间的non-coding转录本,普通文库无法确定转录本的方向。

4. 原核生物操纵子的预测

原核生物的基因是多顺反子的结构,反义转录本上的基因,如果不加区分,那么对应位置的基因表达量会计算不准确,并且预测操纵子以及基因结构也更不准确。

5. 组装结果更真实

一般的转录组组装出来的unigene既包括编码转录本,也包括一些非编码转录本(比如lncRNA),但是如果不区分正反链,那么有互补配对关系的编码与非编码转录本会被组装成一条转录本。

很多分析软件(比如StringTie、rMATS)支持通过参数指定是否为链特异性建库,从而可以分析出更准确的结果,在使用这些软件时注意文库的建库类型和软件的参数说明。如果委托第三方建库测序而自行进行数据分析,也可以咨询是否为链特异性建库。





参考文献:

1. Parkhomchuk D, Borodina T, Amstislavskiy V, Banaru M, Hallen L, Krobitsch S, Lehrach H, Soldatov A. Transcriptome analysis by strand-specific sequencing of complementary DNA. Nucleic Acids Res. 2009 Oct;37(18):e123. doi: 10.1093/nar/gkp596. Epub 2009 Jul 20. PMID: 19620212; PMCID: PMC2764448.

相关阅读

基础篇:circRNA测序介绍 | 转录调控

基础篇:5000字带你了解lncRNA测序 | 转录调控专题

基础篇:5000字带你了解miRNA测序 | 转录调控专题

转录组测序文章中的高频图形介绍 | 转录调控专题

蛋白质组学和转录调控研究思路


点击下方图片进入云平台资料汇总:


所见即所得,绘图高规格

联川云平台,让科研更自由








继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存